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摘要 : 【 目的 ] 利用 文献 的 主题 标 引 结果 ,发 现 其 中 隐 含 的 重要 语义 关系 。[ 方法 ] 基于 MEDLINE 数据 库 中 的 
生物 医学 主题 标 引 文献 , 提出 一 种 语义 关系 发 现 算法 , 涉及 主题 词组 配 原 则 、 主题 标 引 规则 以 及 基于 加 权 标 引 词 
和 关系 出 现 频次 的 优化 方法 等 多 个 环节 。[ 结果 】 收 集 疾病 与 症状 方面 的 实验 数据 对 算法 进行 实验 验证 ,并 结合 
领域 专家 审核 , 结果 表明 本 文 所 发 现 语 义 关系 的 准确 率 可 达到 95% 以 上 。[ 局 限 】 本文 所 研究 的 语义 关系 发 现 算 
法 仅 适 用 于 具有 主题 标 引 结果 的 文献 。【 结论 ] 从 大 规模 生物 医学 主题 标 引 文献 中 发 现 中 英文 两 种 语言 的 语义 关 
系 是 有 效 可 行 的 ,对 其 他 领域 语义 关系 的 发 现 具有 极 高 的 借鉴 意义 。 
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(Dyspnea) 等 "时 ,关系 抽取 RE 的 任务 就 是 发 现 “ 利 心 
平 " 与 “高 血压 ”之 间 的 “治疗 ”关系 、“ 肺 炎 ” 与 “呼吸 困 
难 ” 之 间 的 “症状 ”关系 。 而 诸如 此 类 的 关系 抽取 成 果 ， 
具有 和 较 高 的 实际 应 用 价值 。 自 动 问答 等 信息 检索 系统 
即 为 一 个 典型 应 用 , 用 于 回答 形 如 “ 哪 种 药物 可 用 于 
治疗 高 血压 "、“ 肺 炎 都 有 哪些 症状 ”的 提问 。 而 在 叙 词 
表 、 本 体 等 知识 组 织 系统 、 领 域 知识 库 及 语义 网 的 构 
建 中 , 关系 抽取 能 够 丰富 概念 间 的 语义 关系 ,增加 关 
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随 着 科学 研究 与 数字 出 版 的 快速 发 展 与 推进 ， 公 
开 出 版 的 文献 已 然 成 为 重要 的 数据 来 源 。 据 统计 , X 
至 2015 年 5 月 , 美国 MEDLINE 数据 库 所 收录 的 生物 
医学 期 刊 文献 总 量 已 超过 2 200 71583, 并 且 每 年 以 70 
万 篇 的 速度 增长 由 。 显然 , 对 科研 人 员 而 言 , 欲 从 如 此 
庞大 的 文献 数据 中 及 时 获取 新 思想 、 新 方法 、 新 成 果 ， 
无 疑 是 一 件 极 具 挑 战 性 的 工作 。 系 实例 , 扩充 知识 结构 。 
为 了 有 效 地 从 科学 研究 中 发 现 新 知识 并 付 诸 于 实 2 相关 研究 
R, 越 来 越 多 的 学 者 投入 到 结构 化 或 半 结 构 化 文本 信 
息 的 自动 抽取 研究 中 ， 即 信息 抽取 (Information 关于 关系 抽取 的 研究 ， 至今 已 取得 一 定 的 研究 成 
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Extraction, IE)。 一 般 而 言 , IE 过 程 涉 及 两 项 重要 任务 : 
命名 实体 识别 QNamed Entity Recognition, NER) 及 关系 
抽取 (Relation Extraction, RE) 中 。 前 者 旨 在 从 文本 中 识 
别 实体 类 型 (如 人 名 、 地 名 、 组 织 机 构 名 、 疾病 、 药物、 
基因 、 和 蛋白 等 ) 及 相应 的 实体 名 称 , 而 后 者 则 侧重 确定 
两 个 实体 (或 概念 ) 间 重要 的 语义 关系 。 例 如 , 在 处 理 
“ 利 心平 (Nifedipine) 是 治疗 高 血压 (Hypertension) 的 常 
见 药物 ”"、“ 肺 炎 (Pneumonia) 的 症状 包括 呼吸 困难 


果 。 而 依据 其 发 现 一 对 实体 间 语 义 关系 的 基本 原理 ， 
这 些 研究 大 体 可 分 为 三 类 : 基于 模式 匹配 、 基 于 机 器 
学 习 及 基于 词 表 的 方法 口 。 

(1) 基于 模式 匹配 的 RE 研究 首先 利用 语言 学 知 
识 或 领域 知识 生成 若干 关系 模版 , 之 后 再 将 待 处 理 句 
子 与 模版 逐一 进行 匹配 。 一 旦 匹配 成 功 ， 则 认为 该 句 
具有 模版 特征 ,从 而 认定 句 中 实体 间 的 语义 关系 斑 9 。 
例如 ， 从 “A 即 / 亦 即 /或 /或 称 /也 称 B” 模 版 中 , 发 现 A 
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Hj B 之 间 的 同 义 关系 。 其 中 ,关系 模版 通常 由 领域 专 
家 手工 生成 , 或 由 计算 机 程序 依据 一 定 规则 从 语 料 中 
自动 产生 。 

(2) 基于 机 带 学 习 的 算法 将 上 自然 语言 处 理 拉 术 应 
用 于 关系 抽取 任务 中 , 包括 有 监督 、 无 监督 及 弱 监 督 
三 种 方式 。 有 监督 的 机 带 学 习 中 , 领域 专家 事先 标注 
出 语料库 中 的 语义 关系 , RE 算法 则 依据 词法 、 语 法 及 
语义 特征 训练 分 类 器 , 并 将 其 用 于 发 现 待 处 理 文本 中 
的 语义 关系 。 然而 生成 语料库 往往 需要 领域 专家 的 
参与 ,不 仅 费时 费力 ， 而 且 较 难 扩展 到 其 他 领域 中 ， 
因此 无 监督 的 关系 抽取 研究 应 运 而 生 。 该 方法 首先 自 
动 抽取 句 中 实体 间 的 语义 关系 ,而 后 再 对 大 量 的 关系 
HFFR, 相对 而 言 , 在 处 理 专业 领域 文献 时 ， 
其 聚 类 结果 还 有 待 进一步 优化 完善 。 弱 监督 的 关系 抽 
取 技 术 综合 考虑 了 上 述 两 种 方法 的 优 缺 点 ， 主 要 改 
进 之 处 在 于 利用 领域 语料库 中 句子 的 特征 自动 训练 
分 类 器 , 在 提高 RE 结果 专业 适应 性 的 同时 , 减少 领 
域 专家 的 人 工 参与 中 。 总 体 而 言 ， 基于 机 器 学 习 的 
关系 抽取 方法 因 其 具有 较 高 的 计算 效率 和 较 少 的 领 
域 知识 和 专家 参与 ， 目 前 较 多 地 用 于 大 规模 通用 文 
本 处 理 中 。 

(3) 基于 词 表 的 语义 关系 抽取 方法 ， 从 已 有 的 
语义 词典 或 成 熟 的 领域 本 体 中 获取 实体 之 间 的 语义 
JEU) iili A. WordNet 中 发 现 两 个 词 之 间 的 上 下 
位 关系 ; 鉴于 词典 和 本 体 中 的 内 容 结构 均 已 通过 编制 
者 的 审定 , 该 方法 所 抽取 的 语义 关系 一 般 具 有 较 高 的 
准确 性 ,然而 , 其 局 限 性 也 相当 明显 ， 因 为 词 表 收 词 量 
十 分 有 限 ,， 且 很 难 实时 更 新 。 

关系 抽取 也 称 关 系 发 现 , 一 般 而 言 二 者 无 严格 区 
别 ; 但 在 信息 领域 中 , 前 者 多 指 从 一 个 句子 或 其 相 邻 
上 下 文中 确定 (Identify) 实 体 间 的 关系 ,而 后 者 的 范围 
可 扩展 至 整 篇 文献 或 文本 。 与 上 述 各 种 语义 关系 抽取 
方法 不 同 , 本 研究 从 多 年 生物 医学 领域 主题 词 表 编 制 
及 文献 标 引 经 验 出 发 ， 探 讨 基于 主题 标 引 文献 的 语义 


度 上 降低 了 错误 率 ; 此 外 , 本 研究 提出 一 种 基于 加 权 
标 引 词 和 关系 出 现 频次 的 优化 方法 ,进一步 提高 算法 
的 准确 率 。 值 得 提出 的 是 , 虽然 本 研究 针对 生物 医学 
主题 标 引 文献 展开 , 但 这 种 基于 主题 词组 配 原理 及 主 
题 标 引 规则 的 语义 关系 发 现 机 制 ， 对 其 他 领域 而 言 ， 
具有 极 高 的 借鉴 意义 。 


3 算法 发 展 基础 


3.1 《医学 主题 词 表 》 

《医学 主题 词 表 》(Medical Subject Headings, 
MeSH) 由 美国 国立 医学 图 书馆 (National Library of 
Medicine，NLM) 负 责编 制 及 更 新 维护 04, 是 目前 公 
认 的 最 权威 的 生物 医学 主题 词 表 , 广泛 用 于 生物 医 
学 文献 的 标 引 与 检索 、 图 书 编目 等 基于 生物 医学 主 
题词 描述 文献 实质 内 容 的 数据 库 中 。2016 版 MeSH, 
共 包 含 疾病 、 病 因 、 体 征 、 药 物 等 在 内 的 27 883 个 
主题 词 ， 以 及 畸形 、 化 学 诱导 、 病 因 学 、 并 发 证 、 
药物 疗法 等 82 个 副 主 题词 ， 主 题词 与 副 主 题词 组 配 
使 用 ,， 副 主题 词 对 主题 词 起 到 限定 或 复 分 的 作用 ， 
使 主题 词 具有 更 高 的 专 指 性 ,例如 “ 肾 发 育 不 全 ”, 在 
输入 主题 词 “ 肾 ” 后 ,选择 副 主题 词 “畸形 ”表示 发 育 
不 全 。 AIh, MeSH 亦 是 一 部 规范 化 的 可 动态 扩展 的 
生物 医学 领域 叙 词 表 ; 中 国医 学 科学 院 医学 信息 研 
究 所 在 对 MeSH 进行 汉化 实现 中 英文 双语 对 照 的 基 
础 上 , 增加 了 《中 国 中 医药 学 主题 词 表 》 相 关内 容 ， 
形成 《中 文 医学 主题 词 表 》(Chinese Medical Subject 
Headings, CMeSH)", 全 面 用 于 中 文生 物 医学 文献 
的 标 引 、 编 目 与 检索 。 对 于 本 研究 而 言 MeSH 与 
CMeSH 提供 了 中 英文 两 种 语言 的 生物 医学 实体 ( 概 
念 ) 名 称 ， 从 而 为 所 发 现 的 语义 关系 进行 中 英文 转换 
奠定 了 基础 。 

3.2 MEDLINE 生物 医学 主题 标 引 文献 

MEDLINE 是 由 NIM 开发 的 大 型 开放 性 生物 医 
学 文献 数据 库 帆 , 使 用 MeSH 词 表 对 生物 医学 文献 进 


关系 发 现 算法 ， 旨 在 从 大 规模 的 文献 数据 中 发 现 重 要 
的 语义 关系 ,为 构建 基于 语义 关系 的 信息 检索 系统 、 
知识 组 织 系统 、 领 域 知识 库 及 语义 网 提供 数据 基础 。 
相对 而 言 ,这 种 基于 主题 标 引 文献 的 语义 关系 发 现 算 
法 具有 较 高 的 准确 性 ,因为 文献 标 引 主题 词 一 般 由 标 
引 员 给 出 ,或 由 程序 自动 计算 后 人 工 审核 , 在 一 定 程 
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行 主题 标 引 与 检索 , 公众 可 自由 获取 全 文 文献 及 其 基 
于 MeSH 词 表 的 主题 标 引 结果 (对 应 的 检索 系统 为 
PubMed)。 如 图 1 所 示 , 一 篇 论证 呼吸 困难 为 肺炎 症状 
的 文章 (PMID 为 文章 编号 ) 依据 标 引 规则 并 利用 
MeSH 词 表 进行 主题 标 引 后 , 标 引 词 (MH) 包 含 “ 肺 炎 / 
并 发 症 *"、“ 呼 吸 困难 /病因 学 ”。 


PMID- 20735868 
OWN — NLN 


STAT- MEDLINE 

DA - 20100825 

DCOM- 20100920 

TI - [A man with exercise 
PG - A1102 

AB -A 5l-year old male was admitted to the hospital with complaints of fever, a 

ive cough and exercise-related shortness of breath. These complaints were 
as successfully treated with antibiotics. 


related shortness of breath]. 


nosis/etiology 
MH - Dyspnea/*diagnosis/*etiology 
MH - *Exercise/physiol 


MH -Middle Aged 
MH - Pneumonia/*complications/*diagnosis/drug therapy 


图 1 MEDLINE 主题 标 引 文献 示例 


3.3 基于 MEDLINE 生物 医学 主题 标 引 文献 的 
语义 关系 发 现 规则 

基于 MeSH 词 表 的 生物 医学 文献 主题 标 引 的 组 配 
原则 以 及 MEDLINE 数据 库 所 提供 的 主题 标 引 文献 ， 
为 本 研究 发 现 生 物 医学 实体 (或 概念 ) 间 的 语义 关系 ( 特 
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别 是 与 公众 健康 密切 相关 的 疾病 知识 ) 提 供 了 一 定 的 
理论 与 数据 基础 。 例 如 ,从 图 1 所 示 的 文献 标 引 主题 
词 中 ,可 发 现 “ 肺 炎 ” 与 “呼吸 困难 ”之 间 的 “临床 发 现 
( 即 症状 "关系 。 具 体 而 言 ,这些 语 义 关 系 不 仅 包 括 疾 
病 与 体征 之 间 的 临床 发 现 关 系 ( 即 症状 ), 还 有 疾病 与 
化 学 物质 、 基 因 、 微 生物 之 间 的 引发 关系 ( 即 病 因 ), 疾 
病 与 药物 之 间 的 治疗 关系 , 疾病 与 诊断 技术 和 方法 之 
间 的 诊断 关系 , 疾病 间 的 并 发 关系 , 肿瘤 间 的 继 发 关 
系 ( 继 发 关系 一 般 仅 针对 肿瘤 ) 等 ,相应 的 主题 词 与 副 
主题 词 的 组 配 原则 如 表 1 所 示 。 例 如 , 通过 在 一 篇 文 
献 中 同时 出 现 的 一 组 主题 标 引 结果 “疾病 /并 发 症 ”、 
“症状 与 体征 /病因 学 ”， 则 揭示 了 疾病 与 症状 、 体 征 之 
间 的 临床 发 现 关系 。 
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表 1 基于 MEDLINE 主题 标 引 文献 的 语义 关系 发 现 规则 


主题 标 引 结果 1 


主题 标 引 结果 2 


语义 关系 


ET 副 主 题词 ET 副 主 题词 
EUN UE 疾病 并 发 症 症状 与 体征 病因 学 
临床 发 现 (症状 ) — ex 病因 学 (或 化 学 诱导 ) 化 学 物质 副作用 (或 中 毒 ) 
疾病 遗传 学 基因 
SPURS 疾病 微生物 微生物 
(药物 ) 治 疗 疾病 药物 疗法 药物 治疗 应 用 (或 投药 & 剂 量 ) 
诊断 疾病 诊断 诊断 技术 和 方法 方法 
并 发 "E 并 发 症 疾病 2 并 发 症 
继 发 Wu 1 病理 学 肿瘤 2 继 发 性 
3.4 语义 关系 发 现 优化 研究 的 主题 标 引 文献 数据 格式 以 及 语义 关系 发 现 优化 机 


在 对 文献 进行 主题 标 引 时 , 标 引 员 通 常 采用 为 最 
能 表达 文献 主题 内 容 的 标 引 词 打 星 号 (或 IM) 的 方式 区 
分 标 引 词 的 权重 ， 即 加 权 标 引 避 ; 带 有 星 号 的 标 引 词 
为 文献 重点 讨论 内 容 , 其 重要 程度 也 最 高 ; 进而 ， 基 
于 带 星 号 的 标 引 词 所 推导 出 的 语义 关系 不 仅 关键 而 且 
准确 ,因为 在 经 过 人 工 标 引 或 自动 标 引 及 人 工 审 核 后 ， 
文献 最 核心 主题 标 引 词 一 般 很 少 标 错 。 此 外 , 为 了 杜 
绝 个 别 作者 编 扎 数据、 撰写 不 真实 的 学 术 文 章 ,， 本 人 研 
究 进 一 步 引入 发 现 某 一 对 具体 关系 的 文献 数 ( 即 关 系 
的 出 现 频次 ) 对 所 发 现 的 语义 关系 进行 优化 , 并 依据 统 
计 学 原理 设 定 相 应 的 阔 值 作为 控制 参数 ， 以 提高 发 现 
结果 的 可 靠 性 与 准确 性 。 
3.5 基于 MEDLINE 生物 医学 主题 标 引 文献 的 语义 
关系 发 现 算法 

根据 上 述 MeSH 词 表 中 主题 词 与 副 主 题词 组 配 原 
则 、 生 物 医学 文献 主题 标 引 规则 、MEDLINE 所 提供 


制 ， 本文 提 出 一 种 基于 生物 医学 主题 标 引 文献 的 语义 
关系 发 现 算法 , 其 基本 思想 如 图 2 所 示 。 

(1) 从 MEDLINE 数据 库 中 获取 生物 医学 主题 标 
引文 献 , 并 记录 每 篇 文章 编号 PMID 及 所 有 的 主题 标 
引 词 MH; 

(2) 对 主题 标 引 词 MH 进行 筛选 , 仅 保留 带 星 号 
的 加 权 标 引 词 ; 

(3) 逐一 将 每 篇 文章 与 语义 关系 发 现 规则 ( 见 表 1) 
进行 匹配 , 保留 符合 主题 词 与 副 主 题词 组 配 原则 的 文 
献 及 主题 标 引 词 MH, 对 其 余 文 献 进行 滤 除 ; 

(4) 依据 语义 关系 发 现 规则 ,提取 语义 关系 三 元 
组 (概念 1、 语 义 关系 类 型 、 概 念 2), 并 记录 相应 的 文 
章 编号 PMID; 

(5) 按照 语义 关系 三 元 组 进行 聚 类 , 统计 相应 的 
文章 个 数 , 作为 该 关系 的 出 现 频次 ; 

(6) 根据 一 定 的 统计 学 原理 ,选择 有 意义 的 阔 值 ， 
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对 所 发 现 的 语义 关系 进行 优化 ; KREFT B] 
值 的 语义 关系 三 元 组 , 将 被 滤 除 ; 

(7) 经 过 优化 后 的 语义 关系 三 元 组 , 将 被 作为 最 
终结 果 输 出 。 


生物 医 


主题 标 引 文献 


筛选 加 权 标 引 词 


匹配 关系 
发 现 规则 


初步 提取 
关系 三 元 组 


图 2 基于 MEDLINE 生物 医学 主题 标 引 文献 的 
语义 关系 发 现 流程 


4 ”实验 与 讨论 


本 文 以 呼吸 道 疾 病 与 症状 、 体 征 之 间 的 临床 发 现 
关系 为 例 ， 系 统 地 阐述 基于 主题 标 引 文献 的 语义 关系 
发 现 全 过 程 , 包括 从 MEDLINE 获取 数据 、 算 法 优化 
中 靖 值 的 选取 等 多 个 环节 ; 并 邀请 领域 专家 对 实验 所 
发 现 的 语义 关系 逐一 进行 审核 , 在 验证 算法 准确 率 的 
同时 , 深入 分 析 实 验 结果 。 

41 数据 获取 与 算法 实现 

鉴于 本 实验 以 呼吸 道 疾病 与 症状 、 体 征 之 间 的 临 
床 发 现 关系 为 例 测试 语义 关系 发 现 算法 ,因此 仅 需 获 
取 MEDLINE 数据 库 中 论述 呼吸 道 疾病 相关 症状 与 体 
征 的 文献 集合 , 并 非 全 部 文献 。 而 PubMed 检索 平台 
可 根据 MeSH 词 表 中 主题 词 与 副 主 题词 组 配 原则 设置 
检索 条 件 ， 并 支持 二 次 检索 , 为 本 研究 从 MEDLINE 
数据 库 获取 符合 语义 关系 发 现 规则 的 生物 医学 主题 标 
引文 献 集合 给 予 了 保障 。 公 开 获 取 相 应 文献 数据 集 的 
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基本 步骤 如 下 : 

(1) 检索 含 指定 MeSH 主题 词 的 文献 集合 。 首 先 
设置 过 滤 条 件 为 MeSH 数据 并 输入 MeSH 主题 词 “ 呼 
吸 道 疾 病 (Respiratory Tract Diseases)”， 表 明 选 择 以 
MeSH 词 表 进行 主题 标 引 、 主 题词 含 “Respiratory Tract 
Diseases” 及 其 下 位 的 文献 ， 如 图 3 所 示 : 


Z NCBI Resources © How To © 


Sign in to NCBI 


~ |respiratory tract diseases 


图 3 Æ PubMed 中 检索 含 MeSH 主题 词 的 
文献 集合 示例 


(2) 限定 主题 词 所 组 配 的 副 主 题词 ; 在 返回 页 面 
中 ,选择 主题 词 “Respiratory Tract Diseases”， 选 取 副 
主题 词 “ 并 发 症 (complications)”， 如 图 4 所 示 , 并 选择 
附加 条 件 “ 限 制 到 MeSH 主要 主题 (Restrict to MeSH 
Major Topic)". 


MeSH MeSH 


~ [respiratory tract diseases ee ] 


Create alert Limits Advanced Help 


Full» Send to: + 


Builder 


Respiratory Tract Diseases 
Year int 


[ 
n 
cont 


E physiopathology 
prevention and 
ol 


NLM MeSH Browser 
dbGaP Links 
MedGen 


Recent Activity 


Tum 
园 Respiratory Tract Diseases 


Q respiratory tract diseases 
[u] 


Q ("Respiratory Tract 
Diseases! /complicatio ^e 


BÀ Signs and Symptoms 


T Restrict to MeSH Major Topic. 
-| Do not include MeSH terms found below this term in the MeSH hierarchy. 


图 4 在 PubMed 中 限定 主题 词 所 组 配 的 
副 主 题词 示例 

(3) 以 二 次 检索 方式 , 选择 同时 含有 男 一 主题 词 
的 文献 集合 。 在 所 返回 的 页 面 中 , 重复 上 述 两 个 步骤 ， 
即 设置 主题 词 “症状 与 体征 (Signs and Symptoms)”， 限 
定 相应 的 副 主 题词 为 "病因 学 (etiology)”， 并 以 两 次 检 
索 条 件 进 行 检索 ; 

(4) 获取 含 主题 标 引 词 的 文献 集合 。 在 返回 的 结 
果 页 面 中 ,选择 批量 将 文献 集合 下 载 到 本 地 (File), 并 
指定 格式 为 含 主 题 标 引 词 (MEDLINE)， 点 击 下 载 
(Create File) 后 ， 可 将 相应 的 文献 数据 集 保存 到 指定 的 


本 地 路 径 中 。 至 此 ,完成 数据 获取 ,如 图 5 所 示 。 
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图 5 Æ PubMed 中 批量 下 载 符合 指定 条 件 的 
生物 医学 主题 标 引 文献 数据 集 示例 
不 难看 出 ， 上 述 数 据 获取 过 程 更 多 地 涉及 查找 文 
献 时 的 主题 词 与 副 主题 词组 配 环节 ,而 最 终 在 
PubMed 系统 使 用 的 检索 表达 式 为 : 


("Respiratory Tract Diseases/complications" [Majr]) 
AND "Signs and Symptoms/etiology" [Majr 


考虑 到 MEDLINE 数据 库 每 月 更 新 , 相 比 人 工 多 
次 手动 获取 数据 ， 基于 检索 表达 式 的 自动 处 理 算法 更 
受 青睐 。 在 获取 MEDLINE 主题 标 引 文献 后 , 本 研究 
逐步 实现 了 语义 关系 发 现 算法 中 的 提取 PMID 5 MH, 
筛选 加 权 标 引 词 、 匹 配 关 系 发 现 规则 、 初 步 提 取 关 系 
三 元 组 及 计算 关系 频次 共 5 个 重要 环节 。 本 次 实验 具 
体 的 数据 结果 为 , 从 MEDLINE 数据 库 获 取 8 046 篇 文 
Ek, 从 中 初步 提取 出 6468 对 关系 三 元 组 。 
4.2” 阅 值 的 选取 
进一步 分 析 关 系 三 元 组 及 语义 关系 出 现 频次 , 将 

关系 出 现 频次 作为 横 坐 标 ， 符 合 该 频次 的 关系 三 元 组 
个 数 作为 纵 坐 标 ， 即 得 到 如 图 6 所 示 的 语义 关系 出 现 
频次 分 布 。 其 中 , 语义 关系 出 现 频 次 最 小 为 1, 最 大 为 
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图 6 语义 关系 频次 分 布 
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102; 相应 地 , 频次 为 1 的 关系 三 元 组 共有 4987 X, 频 
次 为 102 的 关系 三 元 组 只 有 1 对 。 另 外 , 图 5 表明 随 
着 语义 关系 出 现 频次 的 增加 ,相应 的 关系 三 元 组 数目 
呈现 递减 ， 其 趋势 逼近 线性 分 布 。 

在 统计 学 中 , 一 般 有 意义 的 线性 函数 统计 指标 包 
括 均值 、 中 位 数 、 众 数 等 。 其 中 均值 也 称 平均 数 ，, 指 
一 组 数据 中 所 有 数据 之 和 与 数据 个 数 之 比值 ， 是 一 项 
反映 数据 集中 趋势 的 重要 指标 , 用 于 体现 这 组 数据 的 
一 般 情况 和 平均 水 平 。 在 本 研究 中 , 选取 代表 语义 关 
系 平均 出 现 频次 的 均值 作为 优化 语义 关系 发 现 结果 的 
闵 值 ， 而 出 现 频 次 大 于 阔 值 的 关系 三 元 组 ,， 因 具有 较 
高 的 出 现 频次 , 将 作为 语义 关系 最 终 发 现 结果 。 浆 值 
Th 的 计算 公式 如 下 : 


Yr 
Th= (1) 

其 中 , N 指 语义 关系 出 现 频 次 , f(i) 指 经 统计 后 出 
现 频 次 为 1 的 关系 三 元 组 个 数 , M 为 按 主题 词 去 重 之 后 
带 有 出 现 频次 的 语义 关系 三 元 组 总 数 。 根 据 公 式 (1) 所 
计算 的 闷 值 为 1.814， 而 基于 此 阔 值 进行 优化 后 的 语 
义 关系 共有 1 481 条 。 
43 ”专家 审核 

为 了 验证 所 提出 的 语义 关系 发 现 算法 的 准确 性 ， 
两 位 领域 专家 对 实验 中 算法 自动 发 现 的 1 481 条 语义 
关系 逐一 进行 审核 , 并 对 其 中 的 33 条 关系 不 予 认可 ， 
表明 本 次 实验 中 语义 关系 发 现 算法 的 准确 率 为 97.8%。 
而 后 对 专家 不 予 认可 的 语义 关系 进行 详尽 分 析 ， 发 现 
主要 原因 为 标 引 时 所 用 的 主题 词 过 于 宽泛 ， 如 “ 瘤 
(Carcinoma)” 与 “咯血 (Hemoptysis)”， 这 种 情况 出 现 的 
比例 高 达 75.8%。 
4.4 结果 讨论 

经 算法 优化 与 专家 审核 后 , 本 实验 最 终 共 发 现 
1448 条 关于 呼吸 道 疾 病 与 症状 、 体 征 之 间 的 语义 关 
系 。 在 MEDLINE 数据 库 中 , 这 些 语义 关系 的 出 现 频 
次 均 不 低 于 2 次, 出 现 频次 最 高 (172 次 ) 的 语义 关系 为 
“ 哮 跨 (Asthma)” 与 “咳嗽 (Cough)”。 类 似 地 ， 利 用 基于 
MEDLINE 生物 医学 主题 标 引 文献 ， 可 发 现 疾病 的 病 
因 、 治 疗 、 并 发 症 、 继 发 症 等 语义 关系 。 男 外 , MeSH 
与 CMeSH 中 英文 对 照 的 词 表 数 据 能 够 支持 直接 将 从 
MEDLINE 文献 中 所 发 现 的 英文 语义 关系 转换 为 中 文 
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格式 ， 有 助 于 开展 基于 中 英文 语义 关系 的 应 用 实践 。 
同时 , 相 比 已 有 的 基于 模式 匹配 、 基 于 机 需 学 习 及 基 
于 词 表 的 方法 , 本 研究 所 提出 的 基于 主题 标 引 文献 的 
语义 关系 发 现 方法 , 不 仅 省 去 了 较 多 的 领域 专家 干 
预 、 语 料 库 选取 及 算法 训练 等 环节 , 而且 可 用 于 从 大 
规模 的 生物 医学 主题 标 引 文献 中 发 现 具 有 和 较 高 准确 性 
的 中 英文 两 种 语言 的 语义 关系 。 


5 结 i& 


大 规模 准确 可 靠 的 语义 关系 对 自动 问答 等 信息 检 
索 系 统 、 知 识 组 织 系统 、 领 域 知 识 库 及 语义 网 的 构建 
具有 至 关 重 要 的 影响 。 本 研究 立足 主题 词组 配 原理 及 
主题 标 引 规则 ， 提 出 一 种 基于 生物 医学 主题 标 引文 献 
的 语义 关系 发 现 算法 , 并 从 加 权 标 引 词 和 关系 出 现 频 
次 等 多 角度 对 算法 进行 优化 。 通 过 从 MEDLINE 获取 
实验 数据 进行 验证 ,并 经 领域 专家 审核 ,获得 满意 的 
准确 率 ， 其 结果 可 投入 应 用 实践 。 最 后 ,， 尽管 本 文选 取 
生物 医学 领域 发 展 算法 并 收集 数据 进行 验证 , 但 这 种 
基于 主题 词组 配 原理 及 主题 标 引 规则 从 主题 标 引 文献 
发 现 语义 关系 的 算法 原理 , 对 其 他 领域 开展 基于 主题 
标 引 文献 的 语义 关系 发 现 研究 具有 极 高 的 借鉴 意义 。 
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Finding Semantic Relations Among Subject Indexed Papers 


Li Xiaoying Xia Guanghui Li Danya 

(Institute of Medical Information, Chinese Academy of Medical Sciences, Beijing 100020, China) 
Abstract: [Objective] This paper tries to identify important and implicit semantic relations among the subject indexed 
papers. [Methods] Based on the subject indexed biomedical papers from MEDLINE, we proposed an algorithm 
consisting of subjects coordinating and indexing rules, as well as optimization rules for weighted indexing results and 
relation occurrences. The new algorithm was then examined with experimental disease data. [Results] With the help of 
domain experts" verification, the precision of the new algorithm was higher than 95%. [Limitations] The proposed 
method was only appropriate for papers with subject indexing. [Conclusions] The proposed algorithm can be used to 
identify semantic relations among English and Chinese subjects indexed biomedical papers, and help us develop 
algorithms in other areas. 


Keywords: Finding semantic relations Indexed papers Coordinating rules Threshold 


XIANDAI TUSHU QINGBAO JISHU $ 


